本文分析了有限状态马尔可夫决策过程(MDPS),其不确定参数在紧凑的集合中,并通过基于集合的固定点理论从可靠的MDP产生重新检查。我们将Bellman和政策评估运营商概括为在价值功能空间合同的运营商,并将其表示为\ Emph {Value Operators}。我们将这些值运算符概括为在价值函数集的空间集上,并将其表示为\ emph {基于集合的值运算符}。我们证明,这些基于集合的价值运算符是紧凑型值函数集空间中的收缩。利用集合理论的洞察力,我们将Bellman运算符的矩形条件从经典稳健的MDP文献到\ emph {CONTAMENT条件}的矩形条件,用于通用价值操作员,该算法较弱,可以应用于较大的参数 - 不确定的MDPS集以及动态编程和强化学习中的承包运营商。我们证明,矩形条件和遏制条件都足够确保基于设定的值运算符的固定点集包含其自身的至高无上的元素。对于不确定的MDP参数的凸和紧凑型集,我们显示了经典的鲁棒值函数与基于集合的Bellman运算符的固定点集的最高点之间的等效性。在紧凑型集合中动态更改的MDP参数下,我们证明了值迭代的集合收敛结果,否则可能不会收敛到单个值函数。
translated by 谷歌翻译